Redondeo Adaptativo que Preserva el Modelo
Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.
Descubre YAQA, el algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% sin sobrecarga. Preserva la distribución del modelo original.
Descubre cómo PrimeSVT automatiza la poda de Transformers de Visión Spiking, reduciendo memoria un 26.68% con mínima pérdida de precisión. Optimiza tus modelos.
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
Analizamos el aprendizaje de características en destilación de conocimiento y presentamos Confusion Distillation, una auto-destilación eficiente que supera a otros métodos en 1.2%.
Descubre cómo fusionar múltiples LoRAs en un solo adaptador de bajo rango con Compress-then-Merge, mejorando eficiencia y rendimiento sin perder estructura.
La cuantización no destruye todas las características interpretables: un análisis revela que el 62% persiste en INT6, pero las métricas engañan.
Aprende cómo PSViT comprime SViT con poda estructural: 22% menos memoria y alta precisión.
Descubre cómo la curvatura de grafos permite podar redes neuronales sin perder precisión. Técnica innovadora basada en Ollivier-Ricci para identificar conexiones clave.
EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.